曾鸣:大数据的本质不是“大”
我们身处互联网时代,可是你真的理解互联网的本质吗?互联网、云计算、大数据,当这三个东西开始正向循环的时候,我们可能就真正迎来跨时代的变化。
【互联网】👉 曾鸣:你真的知道什么是互联网吗?
【云计算】👉 曾鸣:要把云计算当做一个公共事业来提供
第三个我想跟大家讲一下大数据,这可能是近一年来最时髦的词了。
大数据真正的本质不在于“大”,而是在于背后跟互联网相通的一整套新的思维。大数据跟传统的数据最大的差别在哪呢?
1)在线。首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。
2)实时。大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。
3)全貌。大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。
这是大数据的三个本质,在线、实时、全貌。
为了让大家对大数据有更多的理解,我再把它展开跟大家讨论一下。大家做企业,最容易想到的两个数据应用,一个是市场调研,派个市场公司或市场部门做一个调查,去看下各公司什么反馈。第二个就是商业智能BI、数据挖掘,查看数据经营的报表。这是最传统的两个数据应用。这样的数据应用有几个典型特征:
1)要知道准备达成的目标,从而主动收集这些数据。由于每个企业的计算能力跟成本不一样,数据数据保留多少时间、哪些数据能用,是有所不同的。而大数据是实时的记录数据。原则上,任何人上任何一个网站、做的任何事情,所有事情都会被记录下来,没有人事先做区分。所以大家不再去问,是数据就记录下来,所以这是第一个差别。
2)第二个差别:参与的人不再是有意识的参与,而是无意识的参与,你是为自己的利益在做事情。你用一次搜索,你就参与了谷歌的大数据搜集,因为你的每次点击就是一个数据来源。如果让你参加一个市场调研,80%的情况下你会拒绝,15%的情况下你可能会要求某种意义上的补偿。很少有人愿意主动的参加市场调研,因为对你来说是个负担。但是线上的大数据对绝大部分人来说,完全是一个无意识的、自利的行为。我上淘宝就是为了买东西,我上微博是为了看新闻,我上百度是为了搜索,你都是为了自己利益而触发的一个无意识的行为,但这个无意识的行为,都为大数据做了贡献。
3)第三个差别,一个是单向,一个是双向。我们以前做的数据分析也好,都是先假定一个目的,然后拿到现成的数据,分析行为,来测试我的猜测。这些都是有一个单向的主导。大数据本质上一定是双向的,就像搜索,你点击搜索引擎点击的时候,你是给它输入了数据,它给你的结果就是它与你的互动,就是它带给你的数据价值。这个大数据本身也在随时为你创造价值,这样的话就变成一个双向互动的正循环,双方都给对方贡献了数据价值。任何大数据应用,如果在设计时就没有这种双向、互利的正循环的话,是跑不起来的,本质上就不是大数据。
最后一点还想强调的是反应速率,大数据的数据价值越大,它的反应速率就要越高。比如说谷歌的搜索,你输入一个关键字看到的结果,跟一个小时以后再输入同样的关键字得到的结果,很可能已经不一样了。因为它已经把一个小时内全球所有的点击重新计算了一遍,然后把信息做了结果优化再反馈给你。所以大家可以想想看,反馈的速度越快,它创造的价值越大,消费者参与的动机就越大。数据越跑越大、反应越来越快、结果越来越好、用户参与会越来越大,才能变成一个黑洞效应。这是我想讲的大数据的核心概念。
互联网的本质,讲完这三个词基本上已经讲完了。我给大家提供的是一些最基本的思考工具。你怎么用这种思考的方法去解决问题?最重要的是有互联网的思维,你先有了互联网的思维,你才能够去用互联网的技术。
讲完了一些最基本的概念之后,接下来给大家再介绍一下基本的推论。基于互联网的本质,我们会得出一些什么样的结论?
互联网精神是什么?什么才叫用互联网的思维做事情?我刚才讲的那三个,已经把评判标准告诉大家了,拿这标准往上一套,基本上就知道是不是大数据的应用。那么互联网精神是什么呢?
1)平等。为什么是平等?这是由技术决定的,就像生产力决定生产关系。一个网状结构的互联网,是没有中心节点的,它不是一个层级结构。虽然不同的点有不同的权重,但没有一个点是绝对的权威。所以互联网的技术结构决定了它内在的精神,是去中心化,是分布式,是平等,是互动。平等是互联网非常重要的基本原则。
2)开放。为什么要开放?你越开放,你跟别人的连接就越多。在一个网状社会,一个“个人”跟一个“企业”的价值,是由连接点的广度跟厚度决定的,。你的连接越广、连接越厚,你的价值越大,这也是纯信息社会的基本特征,是由你的信息含量决定你的价值。所以开放变成一种生存的必须,你不开放,你就没有办法去获得更多的连接。
3)互动。无论是从互联网还是从大数据的角度,一定是双向的,互动才创造价值。其实“来往”本身就是互动,有来有往嘛。
4)迭代。什么叫迭代?一个想法也好,一个产品也好,得先有原型,扔出去、用起来、别人给你反馈、你把坏处修正,这是一个实时互动的过程,而不再是理论。无论是研发产品还是提供服务,各个方面不再是原来那样通过一个看起来严谨的理论来实施的,更多的是通过实践、通过优化来逼近。所以更多的是计算,不再是数学理论。这是很大的一个差异。
以统计为例,统计的理论都是在计算能力不够的情况下,用一种算术的方法找到最想要的,能够倒推出总体的状态。统计所有的力量都集中在理论、数学理论,而大数据所有的力量都集中在算法的优化。我根本不假定理论,我只是通过一轮一轮的迭代中回归,来逼近真实。用户的需求是什么?首先打出去,然后再校验,只要有双向的反馈,我总是离真实越来越近。所以迭代是互联网整个产品的最关键的一个基石。跟这相关的还有A/B test,这也是互联网的特殊性跟它的技术架构决定的,比如说要测试任何一个产品,我可以把淘宝流量的1%切出来,先给它试这个东西,试完这个程度我再把它放大到20%、80%。迭代跟A/B test的结合使用,让互联网企业的效率远远超过传统企业所能想象的。
5)第五点是演化,而不是计划。大家应该有一定的感知了,我刚才讲的迭代也好,A/B test也好,它本质上不是通过一个完美计划来实现的,而是通过一种演化的方式,来逐渐优化、接近更好的状态,这是互联网精神。
我总结,互联网的精神就是:
平等、开放、互动、迭代、演化…
既然叫精神就要深入骨髓,
贯彻到你的产品、服务、团队、组织、运营当中去。
最后总结一下,互联网到底给我们带来什么?从一个最大的角度来说,互联网让我们从工业文明走向了信息文明,从工业经济走向了知识经济。这些话喊了二三十年,正是因为不断的喊,今天我们才可能跨过这个门槛。我把云计算的普遍使用,当做这个社会进入信息时代的标志。当然云计算作为一个公用事业,达到30%或40%的覆盖率,可能还需要十年左右的时间。但是我们应该已经像100年前状态,即1910到1920年这十年快速发展的状态。同时正是因为有了云计算,大数据变成了可能。如果没有海量数据的存储和计算能力让成本变得非常低廉的话,根本不可能做大数据,数据的成本就把你压垮了。
我们在从一个机械系统的时代走向一个生态系统时代,从工业文明走向信息文明,从工业经济走向知识经济。从这个角度看,如果说农业文明时代最重要的资产是土地跟农民的话,工业时代则是资本、机器(机器是固化的资本)、流水线上被异化了的人。工业时代早期考虑最多的是异化的人,因为人也被当做机器在处理。福特另外很有名的一句话是“我根本不需要你们的脑袋,我只需要你们的手跟脚”,所以人只是流水线当中的螺丝钉。资本跟异化了的人,是工业时代最重要的生产要素。到了知识经济的时代最核心的资源,是两个新的东西,一个是数据,一个是知识工人(知识工作者),就是德鲁克(注:彼得·德鲁克,现代管理学之父,其著作影响了数代追求创新以及最佳管理实践的学者和企业家们,各类商业管理课程也都深受彼得·德鲁克思想的影响)在上个世纪末讲的Knowledge Worker。大家可以看到资本“Capital”,在未来再也不会占据那么大的重要性。当然我们整个社会的变化、生产关系的变化总是落后于生产力的变化,所以资本市场的整个评估,还是以股东利益作为最大化作为基本指导思想。企业的管理也会从传统的多层次走向更加扁平、更加网络、更加生态的方式。让 Knowledge Worker 真正能够创造价值,变成任何一个组织和整个社会最重要、最需要突破的地方。
我附带提一句,大家要看书的话,有本书还是最经典的,就是德鲁克写的《21世纪的管理挑战》。这是写得最经典的一本书,对未来整个大趋势的变化,用最通俗易懂的方法,阐述了知识经济对于我们每个人到底会怎样。大数据只是知识经济落地最实在的切入口,当云计算有了大数据、有了互联网这样的基础后,这三者是三位一体的。没有云计算,就没有大数据,云计算是为大数据服务的,而整个互联网输出的就是计算能力。人们提过super computer超级计算机,而互联网就是最大的一台计算机,它输出的就是全社会所有需要的计算能力。
当这三位一体的东西开始走向正向循环的时候,知识经济就真正开始了。在这个意义上,我们面临着跨时代的变化,而且一切才刚刚开始,未来还有太多太多的可能性。如果不是100倍空间的话,至少几十倍的空间是能看到的。任何一个大型技术革命,早期大家总是高估它的影响,会有一轮一轮的泡沫;但是中期大家往往会低估它的影响,觉得这些不过是概念而已。当你觉得它是概念的时候,它已经开始生根发芽,开始茁壮成长。
【内容源自曾鸣教授2013年演讲 节选】
曾鸣书院加入方式,点击下图放大认真看哦~
“
大家好,我是湖畔黑衣人
无论是互联网,还是餐饮、交通、医疗等等都在讲数据…
那么,同样都是数据,
“大数据”和“传统数据”究竟有什么不一样呢?
————————欢迎留言你大开的脑洞
”
湖畔黑衣人OS:
欢迎关注湖畔大学服务号【ID:hupandaxue】,你需要什么服务欢迎告诉我,哈哈哈。